KODA: Comparación y alineación de representaciones en modelos visión-lenguaje
KODA compara y alinea representaciones de modelos visión-lenguaje como CLIP y SigLIP usando kernels. Identifica discrepancias estructurales interpretables.
KODA compara y alinea representaciones de modelos visión-lenguaje como CLIP y SigLIP usando kernels. Identifica discrepancias estructurales interpretables.